The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
场景图生成(SGG)任务旨在在给定图像中检测所有对象及其成对的视觉关系。尽管SGG在过去几年中取得了显着的进展,但几乎所有现有的SGG模型都遵循相同的训练范式:他们将SGG中的对象和谓词分类视为单标签分类问题,而地面真实性是一个hot目标。标签。但是,这种普遍的训练范式忽略了当前SGG数据集的两个特征:1)对于正样本,某些特定的主题对象实例可能具有多个合理的谓词。 2)对于负样本,有许多缺失的注释。不管这两个特征如何,SGG模型都很容易被混淆并做出错误的预测。为此,我们为无偏SGG提出了一种新颖的模型不合命相的标签语义知识蒸馏(LS-KD)。具体而言,LS-KD通过将预测的标签语义分布(LSD)与其原始的单热目标标签融合来动态生成每个主题对象实例的软标签。 LSD反映了此实例和多个谓词类别之间的相关性。同时,我们提出了两种不同的策略来预测LSD:迭代自我KD和同步自我KD。大量的消融和对三项SGG任务的结果证明了我们所提出的LS-KD的优势和普遍性,这些LS-KD可以始终如一地实现不同谓词类别之间的不错的权衡绩效。
translated by 谷歌翻译
由于常见对象关系中严重的不平衡谓词分布,当前场景图(SGG)方法倾向于预测频繁的谓词类别,并且无法识别稀有类别。为了提高SGG模型在不同谓词类别上的鲁棒性,最近的研究集中在无偏见的SGG上,并采用了Mean Recess@K(MR@K)作为主要评估指标。但是,我们发现了关于这个事实上的标准指标MR@K的两个被忽视的问题,这使得当前无偏见的SGG评估脆弱且不公平:1)@K先生忽略了谓词之间的相关性,而无意识地打破了所有三胞胎预测,无论将所有三胞胎预测列为独立性,在谓词类别中,导致某些谓词被低估了。 2)MR@k忽略了不同谓词的组成多样性,并将过高的权重分配给某些过度简化类别的样本,具有有限的组合关系三重态类型。它与SGG任务的目标完全冲突,该任务鼓励模型检测更多类型的视觉关系三胞胎。此外,我们研究了对象和谓词之间的探索不足的相关性,这可以作为无偏SGG的简单但强大的基线。在本文中,我们完善了MR@K,并提出了两个公正SGG的互补评估指标:独立的均值回忆(IMR)和加权IMR(WIMR)。这两个指标是通过分别考虑组合关系三胞胎的类别独立性和多样性来设计的。我们通过广泛的实验将提出的指标与事实上的标准指标进行了比较,并讨论了以更可信赖的方式评估无偏SGG的解决方案。
translated by 谷歌翻译
在本文中,我们提出了与IEEE计算机协会在CVPR 2022上同时与IEEE计算机协会研讨会同时举行的多手术检测挑战。我们的多手术检测挑战旨在检测自动图像操作,包括但不限于图像编辑,图像合成,图像合成,图像,图像,图像,图像合成,图像,图像编辑一代,图像Photoshop等。我们的挑战吸引了来自世界各地的674支团队,约有2000个有效的结果提交数量。我们邀请了前十支球队为挑战提供解决方案,其中三支球队在大结局中获得了奖项。在本文中,我们介绍了前三名团队的解决方案,以增强图像伪造检测领域的研究工作。
translated by 谷歌翻译
在过去的几年中,引起了独特的图像字幕(DIC)(DIC) - 生成独特的标题来描述目标图像的独特细节。最近的DIC工作建议通过将目标图像与一组语义相似的参考图像(即基于参考的DIC(REF-DIC))进行比较来生成独特的字幕。它的目的是使生成的字幕可以分开目标图像和参考图像。不幸的是,现有参考作品使用的参考图像易于区分:这些参考图像仅类似于场景级别的目标图像,并且几乎没有常见的对象,因此,即使不考虑该模型,Ref-DIC模型也可以微不足道地生成独特的字幕参考图像。为了确保Ref-DIC模型真正了解目标图像中的唯一对象(或属性),我们首先提出了两个新的Ref-DIC基准。具体而言,我们设计了一个两阶段的匹配机制,该机制严格控制对象 - /属性级别的目标和参考图像之间的相似性(相对于场景级别)。其次,为了产生独特的标题,我们开发了一个强大的基于变压器的ref-DIC基线,称为传播。它不仅从目标图像中提取视觉特征,而且还编码目标和参考图像中对象之间的差异。最后,为了获得更值得信赖的基准测试,我们提出了一个新的评估度量指标,名为Ref-DIC的Discider,评估生成的字幕的准确性和独特性。实验结果表明,我们的传统可以产生独特的标题。此外,它在不同指标上的两个新基准测试中的几个最先进的模型都优于多种最先进的模型。
translated by 谷歌翻译
给定图像和参考字幕,图像标题编辑任务旨在纠正未对准错误并生成精制的字幕。但是,所有现有的字幕编辑作品都是隐式模型,即它们直接生成精制字幕而无需与参考标题明确连接。在本文中,我们介绍了一项新任务:显式字幕编辑(ECE)。 ECE模型明确生成了一系列编辑操作,此编辑操作序列可以将参考字幕转换为精制的字幕。与隐式编辑相比,ECE具有多个优点:1)可解释:它可以追踪整个编辑路径。 2)编辑有效:它只需要修改几个单词。 3)像人类一样:它类似于人类执行字幕编辑的方式,并试图保持原始句子结构。为了解决这项新任务,我们提出了第一个ECE模型:Tiger。 Tiger是一种非自动回形变压器的模型,由三个模块组成:Tagger_del,Tagger_Add和Inserter。具体而言,Tagger_del决定是否应该保留每个单词,Tagger_add决定添加新单词的位置,而Inserster预测了添加的特定单词。为了进一步促进ECE研究,我们分别重新组织了两个现有数据集,分别为Coco-EE和FlickR30K-EE,提出了两个新的ECE基准。两个基准上的大量消融都证明了老虎的有效性。
translated by 谷歌翻译
文本对象的重新识别(REID)旨在通过文本描述搜索感兴趣的身份的行人图像。由于丰富的模式内变化和明显的模式间差异,这是具有挑战性的。现有作品通常忽略两种方式之间的特征粒度差异,即,视觉特征通常是细粒度的,而文本特征则粗糙,这主要负责大型模式间间隙。在本文中,我们提出了一个基于变形金刚的端到端框架,以学习两种模式的粒度统一表示,称为LGUR。 LGUR框架包含两个模块:基于字典的粒度比对(DGA)模块和基于原型的粒度统一(PGU)模块。在DGA中,为了使两种模式的粒度对齐,我们引入了一个多模式共享词典(MSD)以重建视觉和文本特征。此外,DGA还具有两个重要因素,即跨模式指导和以前景为中心的重建,以促进MSD的优化。在PGU中,我们采用一组共享和可学习的原型作为查询,以提取粒度统一特征空间中这两种方式的多样化和语义对齐特征,从而进一步促进了REID的性能。综合实验表明,我们的LGUR在Cuhk-Pedes和ICFG-Pedes数据集上始终以大幅度的优势优于最先进的东西。代码将在https://github.com/zhiyinshao-h/lgur上发布。
translated by 谷歌翻译
随着计算病理学的发展,通过整个幻灯片图像(WSIS)的Gleason评分的深度学习方法具有良好的前景。由于WSIS的大小非常大,因此图像标签通常仅包含幻灯片级标签或有限的像素级标签。当前的主流方法采用了多个实体学习来预测格里森等级。但是,某些方法仅考虑幻灯片级标签,忽略了包含丰富本地信息的有限像素级标签。此外,考虑到像素级标签的另外方法忽略了像素级标签的不准确性。为了解决这些问题,我们根据多个实例学习框架提出了一个混合监督变压器。该模型同时使用幻灯片级标签和实例级别标签,以在幻灯片级别实现更准确的Gleason分级。通过在混合监督培训过程中引入有效的随机掩盖策略,进一步降低了实例级标签的影响。我们在SICAPV2数据集上实现了最新性能,视觉分析显示了实例级别的准确预测结果。源代码可从https://github.com/bianhao123/mixed_supervision获得。
translated by 谷歌翻译
自动驾驶技术的加速开发对获得大量高质量数据的需求更大。标签,现实世界数据代表性是培训深度学习网络的燃料,对于改善自动驾驶感知算法至关重要。在本文中,我们介绍了PANDASET,由完整的高精度自动车辆传感器套件生产的第一个数据集,具有无需成本商业许可证。使用一个360 {\ DEG}机械纺丝利达,一个前置,远程LIDAR和6个摄像机收集数据集。DataSet包含100多个场景,每个场景为8秒,为目标分类提供28种类型的标签和37种类型的语义分割标签。我们提供仅限LIDAR 3D对象检测的基线,LIDAR-Camera Fusion 3D对象检测和LIDAR点云分割。有关Pandaset和开发套件的更多详细信息,请参阅https://scale.com/open-datasets/pandaset。
translated by 谷歌翻译
零射击学习(ZSL)通过将语义知识转移到看不见者的语义知识来解决新的类识别问题。通过单独使用单向关注,现有的基于关注的模型在单个图像中努力学习劣势区域特征,这忽略了视觉特征的可转换性和辨别属性定位。在本文中,我们提出了一个跨属性引导的变换器网络,称为Transzero ++,以改进可视化功能,并学习精确的属性本地化,用于ZSL中的语义增强的可视嵌入表示。 Transzero ++由Attribute $ \ LightArrow $ Visual Transformer子网(AVT)和Visual $ \ LightArrow $属性变压器子网(增值税)组成。具体而言,AVT首先采用功能增强编码器来缓解交叉数据集问题,并通过减少区域特征之间的缠绕的相对几何关系来提高视觉特征的可转换性。然后,使用属性$ \ lightArrow $可视解码器来本地化与基于属性的可视特征表示的给定图像中的每个属性最相关的图像区域。类似地,VAT使用类似的功能增强编码器来改进视觉功能,这些功能进一步应用于Visual $ \ lightarrow $属性解码器,以学习基于Visual-基的属性功能。通过进一步引入语义协作损失,两个属性引导的变压器通过语义协作学习互相教导学习语义增强的视觉嵌入。广泛的实验表明,Transzero ++在三个挑战ZSL基准上实现了新的最先进的结果。该代码可用于:\ url {https://github.com/shiming-chen/transzero_pp}。
translated by 谷歌翻译